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摘要 : 【 目的 】 通 过 大 规模 文本 聚 类 技术 进行 话题 检测 ,并 自动 拣选 优质 话题 。[ 方法 】 以 新 浪 微 博 上 与 饮食 相 
关 的 微 博 内 容 为 数据 源 , 结合 文本 聚 类 与 深度 学 习 知识 进行 话题 检测 ,通过 匹配 微 博 发 布 的 月 份 ,将 微 博 划 分 为 
四 季 微 博 ; 使 用 向 量 空间 模型 和 文本 聚 类 方法 ,对 不 同 季 节 的 微 博 进行 话题 检测 ， 获 得 候选 话题 ; 结合 深度 学 习 
知识 ,提出 主题 覆盖 率 概念 , 用 以 自动 评价 话题 质量 ,去 除 低 质量 话题 。[ 结果 】 基 于 主题 覆盖 率 的 话题 筛选 结 
果 符 合 人 工 拣选 预期 ,抽取 获得 主题 覆盖 率 高 于 0.5 的 优质 话题 。[ 局 限 】 话 题 检 测 质量 的 评价 主要 以 定性 评价 
为 主 。[ 结论 ] 通过 计算 主题 覆盖 率 来 自动 选择 优质 话题 , 该 方法 效率 高 ,， 通用 性 强 ,获得 的 话题 便于 理解 ， 较 好 
地 揭示 了 四 季 中 饮食 微 博 的 话题 分 布 。 
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1 引 涨 , 导致 网 络 信息 的 爆炸 增长 外, 如 何 从 繁杂 、 海 量 、 
异 构 的 社交 网 络 评论 中 高 效 而 准确 地 定位 热点 话题 ， 
Web2.0 理念 和 技术 的 发 展 , 带动 了 社交 媒体 的 迅 。 早已 成 为 与 情 监控 、 竞 争 情报 等 领域 的 研究 热点 B53。 
速 发 展 。 多 种 多 样 的 社交 平台 , 为 用 户 之 间 的 交流 提 传统 的 话题 检测 主要 针对 普通 文本 ,通过 大 规模 文本 
供 了 极 大 的 便捷 。 越 来 越 多 的 人 通过 社交 网 络 分 至 目 。 育 类 获得 话题 I 在 这 种 技术 下 , 话题 一 般 用 代表 该 话 
己 对 事物 的 观点 ,与 此 同时 , 随 着 生活 水 平 的 提高 , 人 ” 题 的 类 簇 内 的 所 有 文档 来 表示 ， 只 包含 文档 的 类 别 信 
们 对 饮食 的 关注 日 益 增加 ,人们 在 社交 网 络 上 分 享 美 ” 息 , 不 便于 理解 ,往往 需要 通过 人 工 审核 来 确定 优质 
食 、 推 荐 菜谱 、 探 讨 饮食 功效 、 寻 找 地 方 特色 饮食 。 话题 。 
微 博 作为 用 户 获 取 和 分 享 信息 的 主要 平台 , 存在 大 量 本 文 以 新 浪 微 博 为 研究 对 象 , 结合 文本 聚 类 与 深 
有 关 饮 食 的 评论 内 容 。 据 统计 , 截至 2015 年 12 月 ， ”上 度 学 习 知识 进行 话题 检测 ,实现 优质 话题 的 自动 拱 
我 国 新 浪 微 博 用 户 规模 达 2.3 亿 , 其 中 有 36.7% 的 用 。” 选 。 在 文本 表示 模型 中 , 结合 微 博 语 料 特征 筛选 特征 
户 通过 微 博 分 享 周 边 美 食 、 景 点 1。 因此 ,基于 微 博 数 。。” 词 ,从 而 解决 数据 稀疏 问题 ,提升 聚 类 效率 。 在 聚 类 过 
据 进 行 饮食 话题 检测 具有 可 行 性 与 可 靠 性 。 程 中 , 使 用 K-means 算法 对 微 博 进行 聚 类 , 并 根据 聚 
社交 网 络 的 快速 普及 和 网 民 参 与 热情 的 空前 高 。 类 评估 结果 确定 类 簇 总数， 获得 候选 话题 。 通 过 计算 
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主题 覆盖 率 自 动 评价 话题 质量 ,去除 低 质量 话题 ， 避 
免 人 工 拣选 优质 话题 的 步骤 ,提高 了 话题 检测 效率 。 


2 ”相关 工作 概述 


2.1 话题 检测 与 跟踪 相关 研究 

互联 网 的 飞速 发 展 导 致 信息 资源 的 高 速 增长 ， 
如 何 高 效 检 索 网 络 中 的 热点 话题 , 已 成 为 与 情 监控 、 
竞争 情报 等 领域 的 热点 外。 话题 检测 与 跟踪 (Topic 
Detection and Tracking, TDT) 技 术 就 是 在 这 种 情况 下 
应 运 而 生 的 。 该 技术 则 在 解决 信息 过 载 问 题 四 ， 自动 
地 将 相关 话题 的 信息 汇总 ,以 供 人 查阅 中 。 目 前 ， 
TDT 的 研究 对 象 集中 在 网 络 新 闻 报道 和 博客 上 ， 关 
注 点 多 为 报道 切 分 、 话题 跟踪 、 话题 发 现 和 新 事件 发 
现 等 四 。 

传统 的 话题 发 现 技 术 主要 使 用 聚 类 方法 ,常用 的 
有 : K-means 算法 W”" 层次 聚 类 法 叫 、 中 心 向 量 法 I” 下、 
Single-Passt 等。 这 些 方法 在 普通 文本 的 话题 检测 
任务 中 取得 了 很 好 的 效果 , 如 在 TDT 语 料 中 进行 的 话 
题 检测 任务 551。 这 种 技术 通常 使 用 类 簇 内 的 所 有 文档 
来 表示 话题 , 不 便于 理解 , 往往 需要 通过 人 工 审 核 获 
得 优质 话题 。 此外， 随 着 话题 模型 的 兴起 ne 一些 研 
究 通 过 LDA 模型 rl 及 其 扩展 模型 获取 话题 中。 如 文 
献 [20] 基 于 LDA 话题 模型 抽取 科技 文献 的 话题 , 然后 
计算 话题 的 强度 和 影响 力 , 并 基于 此 进行 趋势 分 析 ; 
文献 [21] 结 合 LDA 模型 和 仿 射 传播 的 自 适应 聚 类 算法 
实现 话题 发 现 ; 文献 [22] 考 虑 微 博 联 系 人 关联 关系 和 
文本 关联 关系 ,提出 一 种 适合 微 博 主题 挖掘 的 MB-LDA 
模型 。 这 种 技术 的 缺点 在 于 抽取 的 主题 词 可 解释 性 较 
差 , 且 时 间 成 本 较 高 。 
除 以 上 提 及 的 几 种 具有 代表 性 的 技术 外 ,还 有 许 
多 各 具 特 色 的 话题 发 现 技术 。 这 些 技术 各 有 优势 ， 目 
前 还 没有 统一 的 评价 标准 。 故 而 在 实际 应 用 过 程 中 需 
要 针对 具体 的 需求 进行 选择 。 本 文 综合 对 比 多 种 算法 
进行 话题 抽取 ,并 结合 深度 学 习 知 识 , 提出 一 种 称 为 
“主题 覆盖 率 ” 的 指标 , 用 来 自动 评价 话题 质量 ,提高 
了 话题 检测 的 效率 。 
2.2 ”饮食 挖掘 相关 研究 

目前 饮食 挖掘 研究 多 集中 在 史学 于 、 社 会 学 ”站 、 地 
理学 ”等 领域 中 ， 旨 在 研究 饮食 文化 变革 对 这 些 领 
域 产生 的 影响 。 由 于 缺乏 系统 的 数据 支持 ， 相 关 研 
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究 多 通过 实地 考察 、 分 析 史 料 等 定性 化 的 途径 进行 中 
定量 和 系统 化 的 研究 较 少 。 

随 着 互联 网 上 荣 谱 数据 的 日 渐 丰 富 ,饮食 挖掘 领 
域 开 始 出 现 一 些 定 量化 的 研究 工作 。 文 献 [33] 通 过 分 
析 多 个 国家 和 地 区 的 56 498 份 菜谱 数据 , 证 明 西方 亮 
饪 倾向 于 使 用 多 种 香料 形成 多 种 口味 混合 ， 比 较 满足 
所 谓 食物 配对 假设 (Food Pairing Hypothesis), 而 东方 
饮食 则 相反 ,文献 [3 和 通过 分 析 小 规模 菜谱 ,认为 气候 
是 影响 厨师 调味 品 选择 的 主要 因素 ; 而 文献 [35] 则 通 
过 统计 分 析 中 国 20 个 菜系 共 8 498 份 菜谱 , 证 明 地 理 
距离 比 气候 对 饮食 习惯 的 影响 更 大 。 

综 上 所 述 , 依托 于 互联 网 提供 的 菜谱 数据 及 社交 
网 络 中 的 评论 信息 ,饮食 领域 定量 化 的 研究 成 为 可 
能 。 现 有 的 饮食 挖掘 多 集中 于 菜谱 数据 : 分 析 地 理 距 
离 、 气 候 等 对 饮食 偏好 的 影响 , 探索 不 同 地 区 食材 搭 
配 的 偏好 等 ,基于 饮食 评论 的 话题 发 现 研 究 则 较 少 。 
本 文 使 用 向 量 空间 模型 和 文本 聚 类 方法 ， 获 得 饮食 评 
论 中 的 相关 话题 ; 结合 深度 学 习 知 识 , 通过 计算 主题 
覆盖 率 自 动 拣选 优质 话题 ， 提 高 话题 检测 效率 。 同 时 ， 
实验 结果 有 效 地 揭示 了 微 博 中 饮食 话题 的 分 布 特点 ， 
有 助 于 进一步 挖掘 消费 者 在 饮食 领域 的 关注 及 需求 。 


3 ”研究 框架 与 关键 技术 描述 


3.1 研究 框架 

为 了 从 海量 数据 中 挖掘 人 们 感 兴趣 的 饮食 话题 ， 
本 文 以 新 浪 微 博 内容 为 研究 对 象 ， 进 行 饮食 话题 的 
发 现 工作 。 由 于 在 不 同 季节 ,饮食 话题 的 分 布 差 异 较 
大 ， 故 针对 不 同 季节 的 微 博 分 别 进行 话题 检测 。 首先 ， 
从 新 浪 微 博 上 采集 与 饮食 相关 的 微 博 , 并 依据 发 布 
月 份 划分 为 四 季 微 博 ; 其 次 , 基于 文本 表示 模型 及 文 
本 聚 类 获得 话题 ; 最 后 结合 深度 学 习 知 识 ， 基 于 主题 
履 盖 率 拣选 优质 话题 。 具 体 研究 框架 如 图 1 所 示 。 
3.2” 微 博 内 容 表示 模型 及 特征 筛选 

本 文采 用 向 量 空 间 模 型 表示 饮食 微 博 内 容 , 并 结 
合 微 博 语 料 特征 筛选 特征 项 。 

(1) 文本 预 处 理 

在 预 处 理 部 分 , 使 用 OPENCC" 对 微 博 正 文 进行 
繁 简 转 化 , 通过 结巴 中 文 分 词 "完成 分 词 与 词性 标注 。 
由 于 饮食 微 博 中 存在 大 量 的 菜 名 ,， 故 将 菜 名 数据 加 入 
到 结巴 的 自 定义 词典 中 进行 分 词 。 
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图 1 基于 用 户 生成 内 容 的 饮食 话题 发 现 框 架 


(2) 向 量 空间 模型 

向 量 空间 模型 B4(Vector Space Model，VSMD) 由 
Salton 等 于 1973 年 提出 , 其 核心 思想 是 将 文本 表示 为 
文档 空间 的 向 量 ,把 从 文本 筛选 出 的 一 个 特征 词 条 作 
为 文本 的 一 维 。 假 设 文本 空间 的 特征 项 总 数 为 M， 则 
第 i 个 文本 di 可 以 表示 为 : 

V(di)=(,wi(dyDiiP,wa(d2) bwM(dvD)) (1) 

其 中 ，f 为 第 j 项 特征 ; wj; 为 特征 fi; 在 文本 di 中 

的 权重 , 本 文采 用 tt-idf 算法 获得 其 权重 , 公式 如 下 : 
i(d) log(N/n)) 
Jid6(D -log(N/ ni) 

其 中 ，tf;(q) 为 特征 f 在 文档 d 中 的 词 频 ，n 为 
语料库 中 包含 词 f 的 文档 总 数 ， 即 通常 所 说 的 文档 频 
率 (DF 值 )，N 为 语料库 中 的 文档 总 数 。 

(3) 特征 项 过 滤 策 略 

因 语 料 规模 较 大 ， 本 文 以 单个 词 作为 向 量 空间 
的 特征 项 。 在 分 词 并 过 滤 所 有 停 用 词 后 ， 微 博 短 文本 
中 仍 存在 大 量 如 表情 符 、 语 气 词 等 与 话题 挖掘 无 关 的 
高 频 词 。 因 此 , 需要 先 过 滤 微 博 中 所 有 的 表情 符 ; 通 
过 统计 特征 词 的 文档 频率 (DF)， 过滤 掉 DF 最 高 的 前 
100 个 高 频 词 项 以 及 DF 值 低 于 100 的 低频 词 项 (两 个 
闵 值 均 通 过 人 工 核准 确定 )。 需 要 过 滤 的 特征 项 如 表 1 
所 示 : 


O) 


GDhttp:/opencc.byvoid.com. 
http://www.oschina.net/p/jieba. 
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表 1 无 效 特征 项 示例 
类 别 词 项 示例 


局 [鼓掌 ]; 国 [ 控 鼻 ]; 国 [部 视 ]; 
名 [ 心 ]， 鲜 [ 黑 线 ].. 


吃 (2432458); 位 置 (1169031); 做 (863060); 想 
(686173); 爱 (65713); 说 (528361); 中 (429700)... 


黑 伤 (20); 手 瓜 (40); 甘 长 (60); 铁马 (80); 歌德 
99)... 


DF(Top-100) 


DF<100 


从 表 1 可 以 看 出 , 这 些 高 频 词 和 表情 符 在 大 部 分 
微 博 中 都 出 现 ， 区 分 性 不 强 ; 低频 词 大 多 为 无 意义 的 
用 户 昵 称 , 话题 相关 性 不 强 ， 故 都 可 以 过 滤 。 

3.3 ”文本 聚 类 

本 文 数据 量 较 大 , 需要 对 约 500 万 条 饮食 微 博 进 
行 聚 类 。 考 虑 到 时 间 成 本 和 话题 抽取 的 可 解释 性 , 综 
合 对 比 多 种 算法 ,最 终 选 择 运 行 速度 最 快 ， 且 话题 可 
解释 性 也 最 好 的 K-means 算法 5 对 文本 进行 聚 类 。 
K-means 算法 是 一 种 基于 原型 (本 文 为 类 艇 质心) 的 聚 
类 技术 ,质心 即 类 簇 中 心 点 。 该 算法 随机 选择 K 个 初 
始 质心 , 其 中 K 为 用 户 指 定 的 类 簇 总数 ; 计算 每 个 点 
与 质心 之 间 的 欧 几 里 得 距离 , 将 每 个 点 指派 到 距离 最 
近 的 质心 ， 而 指派 到 一 个 质心 的 点 集 为 一 个 簇 , 根据 
簇 内 的 点 , 更 新 每 个 艇 的 质心 ; 重复 指派 和 更 新 步 又， 
直到 质心 不 发 生变 化 , 则 完成 聚 类 。 

由 于 K-means 算法 需要 指定 类 艇 总数， 故 本 文 指 


定 类 复数 K=10、15…45、50， 分 别 进行 聚 类 ， 并 根 
据 聚 类 评估 结果 确定 类 复数 。 
3.4 ”主题 覆盖 率 

为 避免 传统 方法 中 , 通过 人 工 拣选 确定 优质 话题 
的 步骤 ,结合 深度 学 习 知 识 和 词语 相似 度 计算 ， 提 出 
一 种 称 为 “主题 覆盖 率 ” 的 指标 ,用 以 评价 话题 质量 。 
以 下 对 主题 覆盖 率 和 词语 相似 度 计算 等 关键 技术 及 概 
念 进行 描述 。 

(1) 主题 覆盖 率 计算 

为 定量 评价 不 同 话题 的 质量 , 参考 文献 [38] 提 出 
的 “类 内 凝聚 度 " 概 念 , 并 结合 深度 学 习 知 识 进 行 扩展 ， 

文献 [38] 定 义 了 两 个 概念 : 核心 代表 特征 和 核心 
文章 。 其中, 核心 代表 特征 是 指 在 聚 类 结果 中 , 某 一 类 
复 下 DF 值 最 高 的 20 个 特征 ; 核心 文章 是 指 包含 m 以 
上 个 核心 代表 特征 的 文章 。 最 终 定义 类 内 凝聚 度 
gs= ci/N ,ci 表示 核心 文章 总 数 ，N 表示 类 艇 内 的 文 
章 总 数 。 

由 类 内 凝聚 度 概念 可 知 ,核心 文章 仅 依据 统计 特 
征 获得 ,与 核心 代表 特征 之 间 没 有 语义 上 的 关联 。 由 
于 微 博 的 短文 本 特性 及 数据 稀 玖 性 ， 即使 m 值 为 1， 
能 够 达到 标准 的 微 博 占 比 也 极 小 。 

为 获得 核心 代表 特征 与 微 博 之 间 语 义 上 的 联 
系 ， 本文 结合 深度 学 习 知 识 ， 提 出 “主题 覆盖 率 ” 概 
念 : 将 核心 代表 特征 定义 为 某 一 类 艇 下 DF 值 最 高 
的 前 n 个 特征 ,， 记 作 Top-n; 将 核心 微 博 定 义 为 至 少 
有 mm 个 词 项 与 核心 代表 特征 的 词语 相似 度 大 于 p 的 
微 博 。 取 Top-n=20, m=3, p=0.9， 则 主题 覆盖 率 计算 
公式 如 下 : 


y=c/N G) 

其 中 ，ci 表示 核心 微 博 总 数 ,，N 表示 类 簇 内 的 微 
博 总 数 。 主题 覆 盖 率 值 域 为 [0,1], 值 越 大 ,表明 可 以 用 
核心 代表 特征 表示 的 微 博 总 数 越 多 ， 即 主题 越 显 著 ， 
话题 质量 越 优 。 

(2) 词语 相似 度 计算 

在 计算 主题 覆盖 率 的 过 程 中 , 需要 通过 计算 特征 
词 与 核心 代表 特征 之 间 的 相似 度 确认 核心 微 博 总 数 。 


Dhttps://code.google.com/p/word2vec/. 
Dhttp://www.meishij.net. 
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为 计算 词语 相似 度 ， 本 文 基于 深度 学 习 知识 , 使 用 
HintonB9 提 出 的 Distribute Representation 方法 表征 词 
回 量 ， 旨 在 将 词 项 表达 为 维 数 较 低 而 且 固定 的 实数 向 
量 , 通过 向 量 空 间 上 的 相似 度 表 示 文 本 语义 上 的 相似 
度 。 由 于 该 方法 更 适用 于 大 规模 的 计算 ， 近 年 来 得 到 
广泛 应 用 。 

为 使 用 上 述 方法 ,本 文 利用 Word2Vec "中 的 
Skip-Gram 模型 进行 文本 表示 , 在 分 词 后 的 全 微 博 语 
料 上 训练 , 将 词语 转化 为 400 维度 的 实数 向 量 。 由 于 
Cosine 距离 常 被 用 来 衡量 两 个 个 体 之 间 差 异 的 大 小 ， 
因此 通过 计算 词 向 量 之 间 的 Cosine 距离 ， 可 以 衡量 词 
语 之 间 的 相似 度 。Cosine 距离 的 值 域 为 上 1, 1], 值 越 大 
表明 词语 越 相似 。 


4 实验 与 结果 分 析 


4.1 实验 数据 集 

菜色 名 称 数据 来 自 美食 杰 网 站 ”由 Zhu 等 中 于 2012 
年 4 月 采集 。 该 数据 集 涵盖 中 国 20 个 菜系 , 共有 8 498 
道 菜 肴 名 称 。 

本 文 的 饮食 微 博 数据 来 自 新 浪 微 博 ,定义 正文 中 
出 现 上 述 菜色 名 称 的 微 博 为 “饮食 微 博 ” 采集 新 浪 微 
博 中 2013 年 全 年 的 饮食 微 博 正文 及 用 户 基本 信息 , 共 
计 8 747 190 条 。 其 中 , 微 博 正 文 内 容 包 括 用 户 ID、 
微 博 正 文 和 发 布 时 间 ， 如 表 2 所 示 : 


表 2 微 博 正文 内 容 示 例 


用 户 ID 微 博 正文 发 布 时 间 

电池 一 碗 辣 效 面 + 问 蹄 + 酱 蛋 + 2013-02-21 
1 55 和 一 两 小 笔 + 一 块 炸 猪排 - 撑 坏 了 20: 04: 37 
170044UHit “ 炸 猪排 本 后 着 油 简 直 太 赞 了 ! 。 19 2 


用 户 基本 信息 包含 用 户 ID 、 用 户 性 别 及 用 户 
所 在 地 区 ， 如 表 3 所 示 : 


表 3 j 户 基本 信息 示例 


用 户 ID 用 户 昵称 性 别 所 在 地 区 
1000###### 。。 娜 儿 ### 女 新 疆 乌鲁木齐 
1000###### 小 瑞 琪 状 # 女 安徽 宣 城 


XIANDAI TUSHU QINGBAO JISHU 


201711.02028v1 
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基于 用 户 ID, 将 微 博 正文 与 用 户 基 本 信息 相 
匹配 ， 过 滤 掉 丢失 用 户 基本 信息 的 微 博 正文 后 ,最 
终 获 得 8 737 464 条 微 博 。 鉴 于 不 同 季 节 中 , 饮食 
话题 的 分 布 差异 较 大 ,依据 微 博 的 发 布 月 份 划 分 
四 季 微 博 ， 进 而 检测 不 同 季节 的 话题 分 布 。 

4.2 ”实验 结果 分 析 
(1) 饮食 的 季节 微 博 划分 
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关于 簇 原型 的 邻近 度 的 和 9; 为 衡量 空间 个 点 的 绝对 
距离 ,邻近 度 dist0 一 般 通 过 欧 几 里 得 距离 度量 。 计 算 
公式 如 下 pl 


ClusterSSE = De dist(ci x)” (4) 


其 中 ，x 代表 对 象 ，Ci 代表 第 i 个 篮 ，ci 代表 簇 
Ci 的 中 心 。 凝 聚 度 越 低 ， 表示 类 艇 内 各 个 对 象 之 间 的 
平均 距离 越 小 , 簇 内 的 凝聚 性 越 好 。 


依据 2013 年 农历 中 立春 、 立 夏 、 立 秋 、 立 冬 
四 个 节气 所 在 的 公历 月 份 , 规定 2013 年 2-4 月 份 为 
春季 , 5-7 月 为 夏季 , 8-10 月 为 秋季 , 1 月 及 上 一 年 11 
月 、12 月 为 冬季 。 通 过 匹配 徽 博 数据 集中 微 博 的 发 
布 月 份 ,除去 丢失 月 份 信息 的 19 678 条 微 博 ， 得 到 
2013 年 各 个 季节 的 饮食 微 博 共 8 717 786 条 。 

在 对 四 季 微 博 分 别 进行 聚 类 的 过 程 中 发 现 ， 
微 博 数据 集中 存在 大 量 文 本 过 短 ， 不 包含 话题 信 
息 的 “垃圾 微 博 "。 这 些微 博 数量 巨大 , 严重 影响 聚 
类 效率 和 聚 类 结果 的 可 解释 性 。 本 文 在 筛选 微 博 特 
征 词 后 ， 过滤 掉 特征 词 数目 低 于 10 的 3 783 652 条 
微 博 (此 参数 为 经 验 数据 )， 大 大 改善 了 聚 类 结果 的 
可 解释 性 。 最 终 得 到 2013 年 各 个 季节 的 有 效 饮食 
微 博 共计 4 934 134 条 。 过 滤 前 后 的 四 季 饮 食 微 博 
总 数 如 图 2 所 示 : 


和 ~ 4 加 过 小 前 回 过 滤 后 


夏季 秋季 冬季 
图 2 过 滤 前 后 四 季 微 博 总 数 


(2) 聚 类 与 聚 类 评估 

本 文 使 用 K-means 算法 对 各 个 季节 的 微 博 分 
别 进行 聚 类 。 考 虑 到 话题 检测 的 实际 需要 ,指定 聚 
类 个 数 在 10-50 之 间 。 因 不 同 季 节 的 话题 总 数 并 不 
一 致 ， 故 指定 类 复数 K=10、15…45、50， 分 别 对 各 
个 季节 的 饮食 微 博 进 行 K-means 聚 类 ， 依 据 聚 类 评 
估 结 果 确 定 最 终 的 类 簇 数 。 

为 量化 评估 聚 类 效果 , 使 用 凝聚 度 、 轮 廓 系数 作 
为 有 效 性 函数 。K-means 算法 是 一 种 基于 原型 (本 文 为 
类 复 中 心 点 ) 的 聚 类 技术 , 故 定 义 复 的 凝聚 度 (SSE) 为 


现代 图 书 情报 技术 


轮廓 系数 综合 了 凝聚 度 和 分 离 度 的 优点 , 个 体 点 
的 轮廓 系数 计算 方法 如 下 [1: 

(对 于 第 i 个 对 象 , 计算 i 到 繁 中 所 有 其 他 对 象 的 平均 
欧式 距离 ， 记 为 ai ; 

@ 对 于 第 i 个 对 象 和 不 包含 该 对 象 的 任意 比 , 计算 该 对 
象 到 给 定 狭 中 所 有 对 象 的 平均 欧式 距离 并 找 出 最 小 值 ， 该 
值 记 为 bi ; 

@ 对 于 第 i 个 对 象 ， 轮 廊 系 数 计算 公式 如 下 : 

si = (bi —a;)/max(a;,b;) (5) 

轮廓 系数 的 值 在 -1 和 1 之 间 变 化 , 值 越 大 表明 聚 
类 质量 越 好 。 通 过 计算 所 有 对 象 的 平均 轮廓 系数 ,可 
以 得 到 聚 类 优良 性 的 总 度量 。 


一 全 一 春季 一 一 夏季 
一 se -一 秋季 一 全 克 季 
0.94 
0.92 2 一 一 全 一 Se 
0.90 i 
2 ee SS 尼 
是 088 十 和 一: - 
BB 0.86 ~ -一 2 
084 了 二 
并 
0.82 
10 15 20 25 30 35 40 45 50 
K: 类 簇 总 数 
图 3 凝聚 度 分 布 图 
一 春季 9 一 夏季 
9 一 秋 委 人 
-0.47 
-0.52 
长 -057 Se = 
NK 党 已 全 
基 江 一 汪 全 :一 wz 
乱 -0.62 i 
$ -067 Ee a 和 
—0.72 和 T T T T T 1 


T T T 
10 153 20 23 30 35 40 45 35350 


K: 类 艇 总 数 


图 4 轮廓 系数 分 布 图 


图 3 和 图 4 为 不 同 季节 在 指定 不 同 聚 类 数目 时 的 
凝聚 度 与 轮廓 系数 ,凝聚 度 越 低 ,轮廓 系数 越 高 ， 则 聚 
类 效果 越 好 。 可 以 看 到 ,两 种 评价 指标 与 类 簇 个 数 变 
化 趋势 基本 一 致 。 依 据 凝 聚 度 和 轮廓 系数 分 布 趋势 ， 
可 以 看 出 : 春季 的 最 优 类 簇 数 目 为 50, 夏季 为 15, 秋 
季 为 45, 冬季 为 10。 

(3) 基于 主题 覆盖 率 的 优质 话题 拣选 

传统 的 基于 文本 聚 类 的 话题 检测 技术 , 在 得 到 聚 
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类 结果 后 ,一般 通过 人 工 拣选 的 方式 得 到 主题 显著 性 
较 高 的 类 簇 。 这 种 做 法 人 工 参 与 程度 较 高 ,效率 较 低 。 
本 文通 过 计算 每 个 类 簇 的 主题 覆盖 率 , 对 其 主题 显著 
度 自动 打分 排序 , 通过 量化 评价 的 方式 规避 这 一 问题 ， 
可 大 大 提高 话题 检测 的 效率 。 为 证 明 该 方法 的 有 效 性 ， 
表 4 以 春季 的 聚 类 结果 为 例 , 对 具有 不 同类 内 凝聚 度 
的 类 簇 进行 排序 。 每 个 类 簇 用 类 内 DF 值 最 高 的 前 15 
个 核心 代表 特征 表示 。 


示例 


主题 覆盖 率 类 内 凝聚 度 ”话题 名 称 


核心 代表 特征 


火 # 饮 # 灰 泡 胡 因 喉 # 涉 发 # 窗 素 核 桃 # 干 枯 # 黄 瓜 # 生 姜 # 淡 盐水 # 干 裂 昌 弥 猴 桃 # 嘴 展 郑 侠 干 # 肿 痛 


NE 


满 


屋 # 龙 马 精神 # 一 帆 风 顺 # 身 体 健康 # 万 事 如 意 # 百 无 禁忌 # 财 源 


里 #: 
皮肤 # 蜂 蜜 # 姜 汤 # 枸 杞 # 肌 肤 # 改 善 # 共 # 美 容 # 和 牛奶 # 状 颜 # 上 火 # 醋 # 疼 痛 # 火 食 # 功 效 


的 匀 # 烧 热 # 捞 出 # 获 # 淀 粉 # 小 火 # 拌 匀 # 生 抽 # 北 油 


南瓜 # 先 净 # 去 皮 # 偏 炒 # 泥 # 面 团 # 倒 入 # 坪 瓜 片 # 南 瓜 饼 # 切 片 # 南 瓜 弦 # 小 南瓜 # 腌 制 # 白 糖 # 适 量 


红 来 # 桂 圆 # 攀 杞 内 先兆 # 银 耳 # 莲 子 扩 间 肺 # 皇 上 # 山 药 # 百 合 # 枸 杞 弦 # 养 颜 # 健 脾 # 小 火 # 核 桃 
无 法 确认 食物 #0 西 后 # 脂 肪 # 食 品 # 健 康 # 牛 奶 # 人 饮食 # 水 果 # 芯 菜 # 维 生 素 # 春 季 # 作 用 # 香 药 

无 法 确认 ”太阳 # 微 风 # 晒 # 阳 光 # 天 气 # 心 情 # 沸 福 # 直 # 月 亮 # 下 午 # 干 杯 # 早 上 # 咖 啡 # 花 

病 生病 # 一 家 # 吐 # 开 # 可 怜 # 稳 厅 # 找 # 翡 伤 # 卖 # 坚 # 老 板 # 特 别 # 走 # 食 # 三 口 

走 # 率 福 # 朋 友 # 可 爱 # 送 # 特 别 # 时 间 # 中 国 # 包 # 笑 #3E# 问 #JT# 昨 天 # 找 


1.0 0.99 喉 晓 肿 痛 
1.0 0.95 春节 顺利 # 事 事 # 化 开 富贵 # 金 银 
0.98 0.29 食谱 分 享 “” 倒 人 # 翻 炒 # 少 许 让 先 净 者 站 
0.77 0.16 养颜 
0.65 0.10 食材 : 南瓜 
0.56 0.12 养生 呢 
0.43 0.029 
0.31 0.025 
0.28 0.00025 ” 生 
0.02 0.0033 无 法 确认 
表 4 中 部 分 话题 被 标记 为 “无 法 确认 ”是 由 于 其 


核心 代表 特征 之 间 相 关 性 不 强 ， 人工 甄别 无 法 确定 其 
主题 ,实验 结果 表明 主题 覆盖 率 较 高 (>0.5) 的 类 簇 主题 
显著 性 较 高 ， 而 主题 覆盖 率 过 低 的 类 簇 则 很 难 判 断 其 
主题 。 这 种 基于 主题 覆盖 率 的 排序 符合 人 工 拣选 的 预 
期 , 很 好 地 解释 了 四 季 有 关 饮 食 的 话题 分 布 状况 ， 同 
时 也 证 实 本 文 方法 可 行 。 

表 4 比较 不 同 质量 话题 下 , 类 内 凝聚 度 及 主题 覆 
盖 率 的 取 值 状况 。 可 以 看 出 : 增加 语义 关联 后 的 主题 
覆盖 率 取 值 更 为 合理 , 分 布 更 为 均匀 ， 如 “食谱 分 享 ”、 
“养颜 ”话题 ; 由 于 数据 稀 琉 问题 ， 单纯 依靠 统计 特征 
获得 的 核心 微 博 数量 过 低 ， 导致 类 内 凝聚 度 在 大 部 分 
话题 下 的 取 值 都 很 低 , 无 法 有 效 评价 话题 质量 ， 如 “ 生 
病 ” 及 其 他 “无 法 确认 ”的 话题 。 

(4) 对 比 实验 

为 论证 方法 的 有 效 性 , 增加 两 组 对 比 实验 : 一 组 
基于 Doc Embedding 模 型 (1 结合 K-means 聚 类 获得 
话题 ; 一 组 基于 LDA 话题 生成 模型 0 "获得 话题 。 以 
春季 为 例 ， 两 组 实验 都 指定 话题 总 数 为 50, 在 春季 
微 博 上 进行 话题 检测 ， 相 关 结 果 示 例 分 别 如 表 5 和 表 


6 所 示 : 
表 5 基于 Doc Embedding 技术 获得 的 春季 话题 示例 
序号 核心 代表 特征 (Top_n=10) 

4 Cs 洗 净 # 倒 入 # 翻 炒 # 人 少许 # 料 酒 # 措 出 # 小 火 # 切 
| 成 # 生 抽 # 均 匀 

2 套餐 # 价 值 # 享 # 团 购 # 份 # 售 # 原 价 # 选 # 今 日 # 
. 通用 

3 人 100# 尖 量 #50#30#20# 材 料 # 原 料 # 洗 净 # 和 牛奶 
# 面 粉 

2 Bo 倒 入 # 洋 酒 # 翻 炒 # 人 少许 # 小 火 # 泻 粉 # 混 油 # 均 
: 匀 # 捞 出 # 生 抽 

17 食物 # 健 康 # 蜂 蜜 # 火 # 皮 肤 # 饮 # 功 效 # 头 发 # 
脂肪 # 饮 食 

8 S30 鲜 鱼 # 酸 汪 粉 # 土 豆 # 烤 肉 # 汉 保 # 肉 夹 馈 # 小 
丸子 # 炸 # 章 鱼 # 披 萨 

7 030 苹果 # 午 餐 # 牛 奶 # 一 杯 # 米 饭 # 香 检 # 水 果 # 饮 
食 # 早 上 # 豆 六 

8 697 生日 # 谢 谢 # 生 日 快乐 # 计 LL 物 # 送 # 祝 # 快 乐 # 亲 
. 爱 # 可 爱 # 感 谢 

6 0 菜谱 # 一 道 # 豆 果 # 网 # 厨 房 # 天 下 # 收 藏 # 看 吧 
. # 简 单 # 大 全 

人 12 红 束 # 煲 # 炖 # 百合 检 先 净 # 枸 杞 # 山 药 # 桂 圆 # 
银耳 # 建 子 
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表 6 基于 LDA 模型 获得 的 春季 话题 示例 
主题 词 (Top_n=10) 

1 山东 # 阿 姨 # 小 小 # 米 醋 # 蟹 黄 # 老 抽 # 了 无比 # 牛 肉 面 #]] 丁 扩 济南 

2 食堂 # 特 产 # 老 爸 # 鸠 丁 # 公 司 # 江 南 # 感 受 # 只 能 # 零 食 # 来 到 

3 ” 大道 # 康 食 # 微 信 # 稀 饭 # 师 傅 # 汶 行 # 飞 机 # 吃 饱 # 大 雨 # 大 人 

4 

5 


成 都 # 价 值 # 伤 心 # 晚 安 # 飞 吻 # 无 敌 # 团 购 # 妹 子 # 起 床 # 等 待 
肉 夹 馈 # 米 线 # 炒 面 # 土 豆 # 面 筋 # 鲜 虾 # 蟹 块 # 波 菜 扒 青 炒 # 豆 腐 
热 干 面 # 密 糖 # 年 糕 # 诱 惑 # 肯 德 基 # 绿 茶 # 井 炒 # 中 路 # 扬 州 # 
票子 
7 纳西 放 己 录 厅 排骨 # 雁 豆 # 肉 片 # 风 味 # 鸟 丝 # 日 式 # 黄 苔 # 厨 艺 
8 ”取代 # 尼 玛 # 烧 人 饼 # 西 路 # 电 影 # 领 取 # 预 定 扩 匡 意 # 面 食 # 进 
9 武汉 # 虾 仁 # 伦 椒 # 黄 瓜 # 精 选 # 包 # 西 安 # 红 豆 # 凉 拌 # 山 东 
10 寿司 # 并 菜 # 肉 丝 # 齐 麦 # 香 干 # 锂 鱼 # 酸 菜 # 西 湖 # 鲍 鱼 # 玫 瑰 


通过 Doc Embedding 技术 , 将 每 段 微 博 正 文 表达 
为 100 维 的 向 量 ; 通过 K-means 算法 对 微 博 进 行 聚 类 ， 
获得 相关 话题 ; 基于 主题 覆盖 率 ,， 对 话题 进行 排序 ， 
相关 话题 用 10 个 核心 代表 特征 表示 。 从 表 5 可 以 看 出 : 
与 表 4 中 的 春季 话题 相 比 , 该 方法 获得 的 话题 可 解释 
性 较 差 , 话题 种 类 较为 单一 ,另外 ,基于 主题 覆盖 率 的 
话题 质量 排序 符合 人 工 拣选 的 预期 ， 再 次 证 明 该 指标 
的 有 效 性 。 

依据 词性 和 统计 特征 ， 过滤 掉 与 主题 无 关 的 词 项 ; 
通过 LDA 主题 建 模 获 得 话题 分 布 。 每 个 话题 通过 最 能 


代表 该 主题 的 10 个 主题 词 表示 。 从 表 6 可 以 看 出 : 该 


方法 获得 的 话题 难以 解释 ， 且 话题 与 话题 之 间 的 区 分 


度 也 很 低 。 主 题词 的 构成 模式 基本 为 "位置 + 人 物 + 食 物 
或 食材 ” 如 话题 1 中 的 “山东 + 阿姨 + 多 黄 ”, 话题 2 中 


的 食堂 + 老 爸 + 特产 "等 。 
通过 以 上 对 比 实验 可 看 出 : 本 文 结合 向 量 空间 模 
型 及 文本 聚 类 技术 的 话题 检测 方法 ,获得 的 话题 可 解 
释 性 更 强 , 各 个 季节 的 话题 分 布 也 符合 实际 状况 ; 基 
于 主题 凝聚 度 的 话题 质量 评价 方法 效率 高 ， 通 用 性 强 , 
可 以 替代 人 工 拣选 高 质量 话题 的 步 又 。 

(5) 话题 分 布 差异 分 析 


为 衡量 各 个 季节 内 话题 分 布 的 状况 , 图 5 给 出 各 
个 季 方 的 主题 覆盖 率 分 布 状 况 。 
-一 春季 下 -夏季 一 -秋季 一 -冬季 
0.8 
! 0.6 
型 | AN 
晶 0.4 
放 sc 
0.2 ~ 


\ Ei 


0 \ 、 
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 
L: 类 艇 标号 


图 5 类 内 凝聚 度 分 布 


由 图 5 可 以 看 出 , 春 、 秋 两 季 话 题 总 数 较 多 , 并 且 
主题 覆盖 率 高 的 话题 数目 也 远 高 于 夏 、 冬 两 季 。 为 此 ， 
以 各 个 季节 中 主题 覆盖 率 高 于 0.4 上 且 具 有 代表 性 的 话 
题 为 例 , 将 各 个 话题 分 为 几 个 大 类 ,对 比分 析 四 季 的 
话题 分 布 差异 及 其 原因 。 经 人 工 审 核 ， 本 文 将 各 个 季 
节 的 饮食 话题 归纳 为 “功效 ”"、“ 节 日 "、“ 毫 饪 ”"、“ 旅 行 ” 
四 个 大 主题 , 在 每 个 大 主题 下 枚 举 当 季 的 相关 话题 ， 
话题 示例 如 表 7 所 示 : 


表 7 四 季 代表 性 话题 示例 


春季 代表 性 话题 秋季 代表 性 话题 

止咳 # 咳 嗽 # 蜂 蜜 # 萝 卜 # 风 案 # 白 萝卜 # 恋 束 汤 # 伤 风 # 鲜 梨 # 社 疾 。 ”止咳 # 咳 嗽 # 蜂 蜜 # 昔 卜 # 风 寒 # 伤 风 # 变 束 汤 # 白 萝卜 # 鲜 梨 # 采 痛 
、， 火 # 钦 # 水 泡 # 因 哈 # 头 发 # 密 束 核 桃 # 干 村 # 黄 瓜 # 生 姜 扩 炎 雪 水 火 # 水 泡 # 因 哈 # 尖 发 # 黄 瓜 # 干 裂 开 多 锋 桃 # 嘴 层 # 生 姜 # 淡 其 水 
“皮肤 # 妖 蜜 # 广 汤 # 和 枸杞 # 肤 # 改 善 # 茶 # 美 容 # 牛 奶 # 养 颜 生津 # 化 痰 # 消 暑 # 成 肥 # 健 康 # 养 颜 # 银 耳 # 冬 瓜 汤 # 止 咳 # 瘦 身 
红 来 # 杜 圆 # 交 杞 大 先 净 # 银 耳 # 连 子 术 间 肺 # 皇 上 # 山 药 # 百 合 红 束 # 秋 季 # 养 生 # 蜂 蜜 # 食 物 # 各 杞 # 功 效 # 润 肺 # 百 合 太 兹 阴 # 
贰 利 # 桂 事 # 花 开 富 贵 # 金 银 满 屋 # 龙 马 精神 # 一 帆 风 顺 # 身 体 健康 
了 事 如 意 # 百 无 禁忌 # 财 源 
豪 鱼 洗 净 # 和 料酒 夫 仆 火 # 适 量 ## 少 许 # 捞 出 娃 # 匀 # 生 抽 玉 到 入 林 证 粉 

北京 # 曝 肚 # 豆 汁 ## 炒 肝 才 人 痪 面 # 小 吃 # 成 都 让 日 担 面 礁 历 圆 # 中 国 


亲 


月 饼 # 五 仁 # 绰 黄 # 蛋 黄 酥 # 中 秋 节 # 侠 肉 # 造 项 # 豆沙 本 式 坟 作 


洗 净 ## 舌 量 # 国 入 # 少 许 # 小 火 # 入 # 锌 酒 # 拼 匀 # 捞 出 # 切 成 
旅行 村 宋 索 # 旅 程 # 感 受 # 世 界 # 途 # 砍 赏 # 上 梦想 # 文 化 # 美 景 


放生 台湾 # 小 吃 # 了 市 # 风 梨 酥 # 包 # 台 北 # 讽 肉 饭 # 大 肠 # 牛 轧 糖 # 小 肠 ” ”台湾 # 取 市 # 小 吃 # 风 梨 酥 # 包 # 大 肠 # 小 肠 # 十 林 # 人 台北 # 面 线 
主题 夏季 代表 性 话题 冬季 代表 性 话题 
生津 # 化 痰 # 消 里 # 百 合 # 健 康 厦 间 肺 # 养 颜 # 银 耳 # 冬 瓜 汤 # 火 


止咳 # 咳 嗽 # 洗 蜜 # 蓝 下 # 风 寒 # 冰 糖水 # 伤 风 # 凄 刺 汤 # 白 萝卜 # 咳 咽 


中 误 p 区 攻 有 > 冶 # 蜜 吏 核 桃 # 千 美 共 发 基 天 状 弥 钦 相 
功效 火 # 织 # 叉 泡 草 因 喉 # 有 痛 # 和 线束 核 桃 # 生 姜 太 发 # 弄 坟 称 猴 桃 食物 # 健 康 # 咎 奶 4[ 现 # 查 养 # 养 后 # 人 饮食 赂 密 # 果 # 百 合 


MM# 试 # 少 女 # 热 荐 # 冰 清 玉 洁 # 韩 国 # 蝇 体 # 隘 素 # 大 S# 红 嫩 
训 饪 洗 净 # 全 入 # 番 炒 # 笠 酒 大 蒜 出 办 仆 火 # 适 量 # 生 抽 术 鸭 匀 检定 粉 


倒 人 检 先 净 # 番 炒 # 少 许 #| 酒 秦 仆 火 六 人 二 . 刘 著 出 # 适 量 
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受 限 于 篇 幅 ， 相 关 话 题 用 10 个 核心 代表 特征 表 
示 。 对 比 表 中 各 个 季节 话题 分 布 , 可 以 得 出 以 下 几 个 
结论 : 

QD 有关 饮 食 “ 功 效 ” 的 话题 在 全 年 都 非常 显著 ,具体 到 某 
类 功效 又 会 随 着 季节 特点 发 生变 化 。 如 “ 降 火 " “止咳 "在 四 
季 都 有 分 布 ; 春秋 两 季 特 别 的 有 “养颜 ”"、“ 滋 阴 ?” 话 题 ; 夏季 
增加 “消暑 ”话题 ,冬季 增加 “养生 饮食 ”话题 。 

人 @@D 有 关 “ 京 乌 ' 教 程 的 话题 在 全 年 都 有 分 布 ， 且 同 质 性 较 高 。 

图 春秋 两 季 气 温 适 宜 ， 用 户外 出 游玩 机 会 较 多 ,， 故 与 饮 
食 相关 的 话题 较 多 ， 如 “旅行 "类 中 的 “地 方 特 色 小 吃 ”“ 旅 游 
景点 ”。 

@ 春 秋 两 季 重 要 的 传统 节日 较 多 ,如 “春节 ”、“ 中 秋 节 ”， 
用 户 倾向 于 在 特定 节日 分 享 具有 代表 性 的 食物 ， 如 “月 饼 ”。 

@ 夏 季 、 冬 季 由 于 气候 较为 极端 ， 用 户 出 行 较 少 ， 缺少 
与 “旅行 "相关 的 话题 ; 与 饮食 相关 的 节假日 较 少 , 缺少 与 
“节假日 "相关 的 话题 。 

通过 以 上 分 析 , 解释 了 春 、 秋 两 季 话 题 数 多 于 夏 、 
冬 两 季 的 原因 ; 同时 也 证 明 , 基于 本 文 方法 获得 的 四 
季 话 题 与 实际 状况 相 契 合 。 


S 总 结 与 展望 


网 络 中 丰富 的 菜谱 数据 和 社交 网 络 上 海量 的 饮食 
评论 为 饮食 挖掘 研究 提供 了 数据 支持 ， 如何 从 这 些 评 
论 中 检测 出 热点 话题 , 进而 为 消费 者 和 营销 商 提 供 决 
策 依据 , 已 经 成 为 各 方 普遍 关注 的 问题 。 传 统 的 话题 
检测 任务 主要 通过 大 规模 文本 聚 类 获得 话题 , 由 于 该 
方法 获得 的 话题 只 包含 类 别 信息 , 不 便于 人 们 理解 , 往 
往 需 要 人 工 审 核 去 除 劣质 话题 , 话题 检测 效率 较 低 。 

本 文 以 新 浪 微 博 为 数据 来 源 , 结合 文本 聚 类 与 深 
度 学 习 知 识 进行 话题 检测 。 在 通过 文本 聚 类 获得 四 季 
饮食 话题 后 ,基于 主题 覆盖 率 自 动 拣 选 优质 话题 。 本 
文 方法 通用 性 强 , 效率 较 高 ,避免 了 在 聚 类 完成 后 人 
工 拣选 话题 的 步 又 。 实 验 结果 较 好 地 揭示 了 四 季 中 饮 
食 微 博 的 话题 分 布 , 有 助 于 进一步 挖掘 消 费 者 在 饮食 
领域 的 关注 热点 。 在 今后 的 工作 中 , 将 进一步 考虑 以 
下 内 容 : 该 话题 检测 方法 在 其 他 领域 的 推广 ; 结合 特 
征 词 抽取 技术 , 更 准确 深入 地 实现 话题 检测 任务 。 
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Identifying Food Topics from User-Generated Contents in Microblogs 
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Abstract: [Objective] This study aims to identify microblog post topics, and then automatically extract high quality 
ones with the help of text clustering techniques. [Methods] We collected food related microblog posts from Sina Weibo 
as raw data, then applied text clustering and deep learning techniques to detect the target topics. First, we categorized 
the microblog posts by the four seasons in accordance with their publishing dates. Second, we created a vector Space 
model and used text clustering method to retrieve candidate topics. Finally，we automatically identified the quality 
topics with deep learning technology. [Results] We automatically identified the high quality topics manually found by 
researchers, and their topic coverage values were all higher than 0.5. [Limitations] We decided the topic quality based 
on qualitative data. [Conclusions] The proposed method could extract high quality topics effectively. The retrieved 
topics reflect the distribution of food related microblog posts in the four seasons. 


Keywords: Topic detection User-Generated Contents Topic coverage Food mining 


德 克 萨 斯 大 学 图 书馆 成 为 全 球 第 一 个 推出 开放 获取 政策 的 图 书馆 


德 克 萨 斯 大 学 图 书馆 为 德 克 萨 斯 大 学 奥斯汀 分 校 的 全 体 工 作 人 员 制 定 了 正式 的 开放 获取 政策 。 一 个 适度 的 、 能 吸引 
图 书馆 工作 人 员 将 期 刊 文章 和 会 议论 文 存储 到 德 克 萨 斯 大 学 数字 资源 库 Texas ScholarWorks 之 中 的 计划 也 于 近日 获得 了 
学 校 的 批准 。 
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包含 开放 成 果 ( 学 术 出 版 物 和 馆藏 )、 开 放 数 据 (研究 数据 ) 和 开放 教育 资源 (开放 教科 书 )。 

德 克 萨 斯 大 学 图 书馆 馆 长 Lorraine Haricombe 在 来 到 德 克 萨 斯 大 学 之 前 ， 兽 在 堪萨斯 大 学 主导 实施 了 一 项 以 教师 为 主导 
的 开放 获取 政策 , 这 是 美国 首 个 公共 机 构 推 出 这 样 的 政策 。 
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